我们提出了Video-Transunet,这是一种深层体系结构,例如通过将时间融合到Transunet深度学习框架中构建的医学CT视频中的细分。特别是,我们的方法通过Resnet CNN主链,通过时间上下文模块(TCM)混合的多帧功能(TCM),通过视觉变压器进行非本地关注以及通过基于UNET的卷积为多个目标的重建功能混合的强框架表示强的框架表示 - 具有多个头部的卷积架构。我们表明,在视频荧光吞咽研究(VFSS)CT序列中,对推注和咽/喉的分割进行测试时,这种新的网络设计可以显着优于其他最先进的系统。在我们的VFSS2022数据集上,它达到了$ 0.8796 \%$的骰子系数,平均表面距离为$ 1.0379 $。请注意,准确跟踪咽注:在临床实践中特别重要,因为它构成了吞咽损伤诊断的主要方法。我们的发现表明,所提出的模型确实可以通过利用时间信息并通过显着的边距提高分割性能来增强Transunet架构。我们发布关键源代码,网络权重和地面真相注释,以简化性能再现。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
The NASA Astrophysics Data System (ADS) is an essential tool for researchers that allows them to explore the astronomy and astrophysics scientific literature, but it has yet to exploit recent advances in natural language processing. At ADASS 2021, we introduced astroBERT, a machine learning language model tailored to the text used in astronomy papers in ADS. In this work we: - announce the first public release of the astroBERT language model; - show how astroBERT improves over existing public language models on astrophysics specific tasks; - and detail how ADS plans to harness the unique structure of scientific papers, the citation graph and citation context, to further improve astroBERT.
translated by 谷歌翻译
在机器学习中使用大型数据集已导致出色的结果,在某些情况下,在机器上认为不可能的任务中的人数优于人类。但是,在处理身体上的互动任务时,实现人类水平的表现,例如,在接触良好的机器人操作中,仍然是一个巨大的挑战。众所周知,规范笛卡尔阻抗进行此类行动对于成功执行至关重要。加强学习(RL)之类的方法可能是解决此类问题的有希望的范式。更确切地说,在解决新任务具有巨大潜力时,使用任务不足的专家演示的方法可以利用大型数据集。但是,现有的数据收集系统是昂贵,复杂的,或者不允许进行阻抗调节。这项工作是朝着数据收集框架迈出的第一步,适合收集与使用新颖的动作空间的RL问题公式相容的基于阻抗的专家演示的大型数据集。该框架是根据对机器人操纵的可用数据收集框架进行广泛分析后根据要求设计的。结果是一个低成本且开放的远程阻抗框架,它使人类专家能够展示接触式任务。
translated by 谷歌翻译
水果和蔬菜的检测,分割和跟踪是精确农业的三个基本任务,实现了机器人的收获和产量估计。但是,现代算法是饥饿的数据,并非总是有可能收集足够的数据来运用最佳性能的监督方法。由于数据收集是一项昂贵且繁琐的任务,因此在农业中使用计算机视觉的能力通常是小企业无法实现的。在此背景下的先前工作之后,我们提出了一种初始弱监督的解决方案,以减少在精确农业应用程序中获得最新检测和细分所需的数据,在这里,我们在这里改进该系统并探索跟踪果实的问题果园。我们介绍了拉齐奥南部(意大利)葡萄的葡萄园案例,因为葡萄由于遮挡,颜色和一般照明条件而难以分割。当有一些可以用作源数据的初始标记数据(例如,葡萄酒葡萄数据)时,我们会考虑这种情况,但与目标数据有很大不同(例如表格葡萄数据)。为了改善目标数据的检测和分割,我们建议使用弱边界框标签训练分割算法,而对于跟踪,我们从运动算法中利用3D结构来生成来自已标记样品的新标签。最后,将两个系统组合成完整的半监督方法。与SOTA监督解决方案的比较表明,我们的方法如何能够训练以很少的标记图像和非常简单的标签来实现高性能的新型号。
translated by 谷歌翻译
本文为复杂和物理互动的任务提供了用于移动操纵器的混合学习和优化框架。该框架利用了入学型物理接口,以获得直观而简化的人类演示和高斯混合模型(GMM)/高斯混合物回归(GMR),以根据位置,速度和力剖面来编码和生成学习的任务要求。接下来,使用GMM/GMR生成的所需轨迹和力剖面,通过用二次程序加强能量箱增强笛卡尔阻抗控制器的阻抗参数可以在线优化,以确保受控系统的消极性。进行了两个实验以验证框架,将我们的方法与两种恒定刚度(高和低)的方法进行了比较。结果表明,即使在存在诸如意外的最终效应碰撞等干扰的情况下,该方法在轨迹跟踪和生成的相互作用力方面都优于其他两种情况。
translated by 谷歌翻译
本文提出了一种移动超级机器人方法,可在人类机器人结合的行动中进行身体援助。该研究从对超人概念的描述开始。这个想法是开发和利用可以遵循人类机器人操作命令的移动协作系统,通过三个主要组件执行工业任务:i)物理界面,ii)人类机器人互动控制器和iii)超级机器人身体。接下来,我们从理论和硬件的角度介绍了框架内的两个可能的实现。第一个系统称为MOCA-MAN,由冗余的扭矩控制机器人组和Omni方向移动平台组成。第二个称为Kairos-Man,由高付费6多速速度控制机器人组和Omni方向移动平台形成。该系统共享相同的接收界面,通过该接口将用户扳手转换为Loco-andipulation命令,该命令由每个系统的全身控制器生成。此外,提出了一个具有多个和跨性别主题的彻底用户研究,以揭示这两个系统在努力和灵活的任务中的定量性能。此外,我们提供了NASA-TLX问卷的定性结果,以证明超级人物的潜力及其从用户的观点中的可接受性。
translated by 谷歌翻译
与痴呆症相关的认知障碍(CI)在全球范围内影响超过5500万人,并且每3秒钟以一个新病例的速度迅速增长。随着临床试验反复出现的失败,早期诊断至关重要,但是在低水平和中等收入国家中,全球75%的痴呆症病例未被诊断为90%。众所周知,当前的诊断方法是复杂的,涉及对医学笔记,大量认知测试,昂贵的脑部扫描或脊柱液体测试的手动审查。与CI相关的信息经常在电子健康记录(EHR)中找到,并且可以为早期诊断提供重要线索,但是专家的手动审查是繁琐的,并且容易发生。该项目开发了一种新型的最新自动筛选管道,用于可扩展和高速发现EHR中的CI。为了了解EHR中复杂语言结构的语言环境,构建了一个8,656个序列的数据库,以训练基于注意力的深度学习自然语言处理模型以对序列进行分类。使用序列级别分类器开发了基于逻辑回归的患者级别预测模型。深度学习系统的精度达到了93%,AUC = 0.98,以识别其EHR中没有较早诊断,与痴呆有关的诊断代码或与痴呆有关的药物的患者。否则,这些患者将未被发现或检测到太晚。 EHR筛选管道已部署在Neurahealthnlp中,这是一种用于自动化和实时CI筛选的Web应用程序,只需将EHR上传到浏览器中即可。 Neurahealthnlp更便宜,更快,更容易获得,并且胜过当前的临床方法,包括基于文本的分析和机器学习方法。它使得早期诊断可在稀缺的医疗服务中可行,但可访问的互联网或蜂窝服务。
translated by 谷歌翻译
用于探索美国国家航空航天局的搜索工具(广告)可以相当丰富和赋予(例如,类似和趋势的运营商),但研究人员尚未允许完全杠杆语义搜索。例如,对“普朗克任务的结果”查询应该能够区分普朗克(人,任务,常量,机构和更多)的所有各种含义,而无需从用户进一步澄清。在广告中,我们正在将现代机器学习和自然语言处理技术应用于我们最近的天文出版物的数据集,以培训Astrobert,这是一种基于Google研究的深刻语境语言模型。使用AstrBert,我们的目标是丰富广告数据集并提高其可发现性,特别是我们正在开发自己的命名实体识别工具。我们在这里展示我们初步的结果和经验教训。
translated by 谷歌翻译
痴呆症是一种神经退行性疾病,导致认知下降,并影响全世界超过5000万人。痴呆症是由医疗保健专业人士诊断的 - 只有患有痴呆症的四个人中只有一名诊断出来。即使制造诊断,也可能无法作为患者图表中的疾病(ICD)诊断码的结构化国际分类。与认知障碍(CI)有关的信息通常在电子健康记录(EHR)中发现,但专家临床医生票据的手工审查既耗时,往往容易出错。本票据的自动化挖掘为在EHR数据中标记有认知障碍患者的机会。我们开发了自然语言处理(NLP)工具,以识别具有认知障碍的患者,并证明语言背景提高了认知障碍分类任务的性能。我们微调我们的注意力深入学习模型,可以从复杂的语言结构中学习,并且相对于基线NLP模型的精度(0.93)大大提高(0.84)。此外,我们表明深度学习NLP可以成功识别没有痴呆相关的ICD代码或药物的痴呆症患者。
translated by 谷歌翻译